zero grad pytorch 에서 왜 zero 를 사용 하 는 지grad()경사도 제거 pytorch 의 backward()함수 의 계산 에 따 르 면 네트워크 파 라 메 트릭 이 피드백 을 할 때 경사도 는 교체 되 는 것 이 아니 라 축 적 된 것 입 니 다.그러나 모든 batch 에 서 는 두 개의 batch 의 경사도 를 혼합 하여 축적 할 필요 가 없 기 때문에 각 batch 마다 zero 를 설정 해 야 합 니 다.grad 됐어 요. 사실 여기 서 보충 할 수 있 는... pytorchzero grad경사도나머지
pytorch 에서 왜 zero 를 사용 하 는 지grad()경사도 제거 pytorch 의 backward()함수 의 계산 에 따 르 면 네트워크 파 라 메 트릭 이 피드백 을 할 때 경사도 는 교체 되 는 것 이 아니 라 축 적 된 것 입 니 다.그러나 모든 batch 에 서 는 두 개의 batch 의 경사도 를 혼합 하여 축적 할 필요 가 없 기 때문에 각 batch 마다 zero 를 설정 해 야 합 니 다.grad 됐어 요. 사실 여기 서 보충 할 수 있 는... pytorchzero grad경사도나머지